数据集漂移 / 数据分布偏移:指训练数据(源域)与测试或部署时的数据(目标域)在分布上不一致,导致模型在现实场景中的表现下降。常见于时间变化、地域差异、采集设备变化、用户行为变化等情境。(该术语也常与 distribution shift 相关;在更细分语境下还可讨论 covariate shift、label shift 等类型。)
/ˈdeɪtəˌsɛt ʃɪft/
The model performed well in the lab, but it failed after dataset shift.
这个模型在实验室表现很好,但在发生数据集漂移后就失效了。
Dataset shift can occur when a system trained on last year’s customer data is deployed after market conditions change, causing the input patterns to differ from what the model learned.
当一个系统用去年的客户数据训练、却在市场环境变化后部署时,就可能发生数据集漂移,因为输入模式与模型学到的分布不再一致。
dataset 由 data(数据)+ set(集合)组成,表示“数据集合”;shift 意为“移动、转变”。合在一起的 dataset shift 直译为“数据集的转变”,在机器学习语境中特指“训练与测试/部署数据分布发生变化”的现象,是统计学习与泛化问题中的高频术语。